在前幾天的文章裡,我們已經從線性迴歸、邏輯迴歸一路走到 CNN (卷積神經網路),逐步體驗了機器學習與深度學習的不同。到了深度學習階段,模型的複雜度往往大幅增加,參數數量動輒上百萬甚至上億,這也帶來了一個非常嚴重的問題: 過擬合 (Overfitting)。
今天我們要談的主題「正規化 (Normalization) 與正則化 (Regularization)」,就是專門為了解決這類問題而設計的工具。這兩個詞在中文裡常常被混淆,但在深度學習中有明確的區分:
可以把它們理解成:
深度學習的挑戰主要來自於以下幾點:
為了應對這些問題,正規化與正則化技術被廣泛應用在深度學習的訓練流程中。
正規化的核心目標是: 讓輸入資料或中間層輸出的數值保持在合理範圍內,以便模型更容易學習。在模型訓練前,我們通常會對輸入資料進行縮放,例如:
正則化的核心目標是:避免模型過擬合,提升泛化能力。
雖然名稱相似,但正規化與正則化針對的問題不同:
在實務上,它們通常是 同時使用 的。例如:
深度學習之所以能夠在近十年迅速崛起,不只是因為 GPU 算力提升或資料量增大,還有賴於一系列 正規化與正則化技術 的發展,讓深度模型可以被穩定地訓練並具備良好的泛化能力。
可以這樣理解:
在進入 RNN、LSTM、Transformer 之前,理解這些基礎的訓練技巧,能讓我們更清楚地看到深度學習從「能跑」到「能用」的過程。